로즈 다이어그램의 진짜 메시지

Hugh Small의 2010년 글 “Florence Nightingale’s Hockey Stick: The real message of her rose diagram”1을 요약. 2015년 경 감명 깊게 읽었었다.

개요

나이팅게일콕스콤 다이어그램은 초창기 데이터 시각화 사례로 유명하지만 잘 살펴보면 이상한 점이 한 둘이 아니다. 이 다이어그램이 사용될 당시 나이팅게일이 처한 정치적 맥락과 그가 달성하고자 했던 목적 등을 고려하면 이 다이어그램의 디자인을 더 잘 이해할 수 있다.

Coxcomb diagram.png

문제점들

사실 콕스콤 다이어그램의 원본 데이터를 시각화하는 정석적인 방법은 X축을 시간, Y축을 사망자수로 하는 누적 막대 그래프다. 여러 데이터 시각화 지침에 의하면 콕스콤 다이어그램엔 몇 가지 문제가 있다.

  • 시계열 데이터를 임의의 시점(1855년 3월)에 끊어서 두 개의 차트로 표현했다.
  • 게다가 1854년 데이터가 오른쪽에, 1855년 데이터가 왼쪽에 있다. LTR 문화권에서 시계열 차트는 일반적으로 왼쪽에서 오른쪽으로 시간의 흐름을 표현하는 게 정석이다.
  • 1차원 데이터를 2차원 공간(원호)의 면적에 대응시키면서 그 과정에서 제곱근 변환을 했다. 즉, 사람들이 원호의 반지름을 기준으로 비교를 한다면 월별 차이가 실제보다 적게 느껴지게 된다. (각 데이터를 별도의 원으로 표현하는 경우엔 반지름이 아니라 면적에 대응시키는게 나은 방법이라고 일반적으로 말하지만, 콕스콤 다이어그램과 같이 극좌표계에 표현된 누적 막대 그래프인 경우 이 원칙이 모호해진다.)

왜 그랬을까.

의도적 변형

나이팅게일은 야전 병원의 위생(환기, 병상 간 간격 넓히기, 손 씻기 등)을 개선하여 사망률을 줄일 수 있다고 보았으나 당시 영군군의 최고 의료 책임자(Chief Medical Officer)인 존 사이먼(John Simon)은 사망률을 줄이는 게 “실질적으로 불가능하다”고 확고하게 믿고 있었다.

나이팅게일은 군과 정치인과 대중을 설득할 필요가 있었고, 글보다는 그림으로 설득력있는 무언가를 보여주고 싶었다.

  • 전쟁이 정확히 2년 간 진행되었고 나이팅게일의 “위생 위원회(sanitary commission)“는 정확히 중간 시점부터 개입하기 시작했다. 개입 전과 후를 비교할 필요가 있었다. 일반적인 막대그래프 중간에 구분선을 하나 넣는 방식보다는 개입 전과 후를 별도의 차트로 표현하여 사망자의 크기가 확실히 줄었다는 걸 한 눈에 볼 수 있게 만들고 싶었다. 즉, 막대를 보며 월별 트랜드를 파악하는 게 아니라, 큰 원(=많은 사망자)과 작은 원(=적은 사망자)을 비교하길 원했던 것.
  • 2년치를 한 번에 보여주는 막대 그래프는 1차년도와 2차년도의 비교를 어렵게 할 뿐 아니라, 계절 간 비교도 어렵게 만든다. 극좌표계를 쓰고 두 개의 차트를 병치하면 계절 간 비교가 용이해진다.
  • 1955년 1월에 사망자수가 급증하는데 이는 “동장군(General Winter; 겨울 혹한기 날씨로 인한 사망률 증가)“을 지나치게 강조하는 결과를 야기할 수 있고, 개입 전-후 비교라는 원래의 목적에 방해가 된다. 따라서 제곱근 변환을 통해(즉, 원호의 반지름이 아닌 면적에 데이터를 인코딩) 월별 차이를 눌러줬고, 결과적으로 전-후 비교에 좀 더 집중할 수 있게 했다.
  • 왜 1854년이 오른쪽에 있을까? Hugh Small는 아마도 1855년 3월에서 1855년 4월로 이어지는 점선을 깔끔하게(즉, 원을 가로지르지 않게) 표현하고 싶었기 때문일거라고 추측한다.

데이터를 왜곡해도 되는건가

Edward Tufte 등 데이터 시각화 분야의 권위자들은 이같은 왜곡을 경멸한다. 잘못된 시각화로 인해 수치가 덜 드러나게 되는 현상을 “dequantification”이라고 부르기도 하고, 얼마나 많이 왜곡되었는지를 나타내는 “거짓말 지수(lie factor)“를 제안하기도 하며, 왜곡의 정도가 심하면 차트 쓰레기라고 비판하기도 한다. (자세한 내용은 시각적인 설명 참고.)

무엇이 옳은 행동인지에 대한 생각은 사람마다 상황마다 다를 수 있는데, 나는 의무론(지켜야할 마땅한 규칙이 있고 이를 지키는 게 옳은 행동이라는 관점)보다는 결과론(좋은 결과에 이르는 행동이 옳은 행동이라는 관점)에 좀 더 경도된 것 같다. 많은 부연 설명을 하지 않으면 위험할 수 있는 얘기겠지만(결과론에 대한 “많은 부연 설명”이 궁금하면 공리주의: 짧은 소개 참고), 데이터를 살짝 왜곡해서 전 인류의 기대수명을 수십년 끌어올릴 수 있다면(나이팅게일의 대단한 업적) 기꺼이 왜곡을 할 것 같다.

가장 좋은 방법은 데이터를 왜곡하지 않으면서도 원하는 메시지를 전달하는 것일테지만(Alberto Cairo), 어떤 제약으로 인해 꼭 선택을 해야만 한다면 그렇게 하겠다는 말이다.

Footnotes

  1. Original text

2024 © ak